符号检测是现代通信系统中的一个基本且具有挑战性的问题,例如多源多输入多输出(MIMO)设置。迭代软干扰取消(SIC)是该任务的最新方法,最近动机的数据驱动的神经网络模型,例如深度,可以处理未知的非线性通道。但是,这些神经网络模型需要在应用之前对网络进行全面的时间量培训,因此在实践中不容易适合高度动态的渠道。我们介绍了一个在线培训框架,该框架可以迅速适应频道中的任何更改。我们提出的框架将最近的深层发展方法与新兴的生成对抗网络(GAN)统一,以捕获频道中的任何变化,并快速调整网络以维持模型的最佳性能。我们证明,我们的框架在高度动态的通道上显着优于最近的神经网络模型,甚至超过了我们实验中静态通道上的神经网络模型。
translated by 谷歌翻译
纠错码是现代通信系统中的基本组件,要求极高的吞吐量,超可靠性和低延迟。随着解码器的近期使用机器学习(ML)模型的方法提供了改进的性能和对未知环境的巨大适应性,传统的解码器斗争。我们介绍了一般框架,以进一步提高ML模型的性能和适用性。我们建议将ML解码器与竞争鉴别器网络组合,该网络试图区分码字和嘈杂的单词,因此,指导解码模型以恢复传输的码字。我们的框架是游戏理论,由生成的对抗网络(GANS)有动力,解码器和鉴别者在零和游戏中竞争。解码器学习同时解码和生成码字,而鉴别器学会讲述解码输出和码字之间的差异。因此,解码器能够将嘈杂的接收信号解码为码字,增加成功解码的概率。我们通过证明这解码器定义了我们游戏的NASH均衡点,我们与最佳最大可能性解码器展示了我们的框架的强烈连接。因此,培训均衡具有实现最佳最大可能性性能的良好可能性。此外,我们的框架不需要培训标签,这些标签通常在通信期间通常不可用,因此似乎可以在线培训并适应频道动态。为了展示我们框架的表现,我们将其与最近的神经解码器相结合,并与各种代码上的原始模型和传统解码算法相比,表现出改进的性能。
translated by 谷歌翻译
由于其灵活,安全,表现特性,Edge Computing彻底改变了移动和无线网络世界的世界。最近,我们目睹了越来越多的利用,使得更加努力部署机器学习(ML)技术,例如联邦学习(FL)。与传统的分布式机器学习(ML)相比,FL被宣告以提高通信效率。原始FL假定中央聚合服务器,以聚合本地优化的参数,可能会带来可靠性和延迟问题。在本文中,我们对策略进行了深入的研究,以通过基于当前参与者和/或可用资源进行动态选择的飞行主服务器来替换这一中央服务器。具体来说,我们比较不同的指标来选择该飞行主机并评估共识算法以执行选择。我们的结果表明,使用我们的飞行大师FL框架的运行时显着减少了与我们的EDGEAI测试的测量结果和使用操作边缘测试的Real 5G网络进行的测量结果相比。
translated by 谷歌翻译
尽管最近在手动和对象数据集中进行了准确的3D注释做出了努力,但3D手和对象重建仍然存在差距。现有作品利用接触地图来完善不准确的手动姿势构成估计,并在给定的对象模型中生成grasps。但是,它们需要明确的3D监督,因此很少可用,因此仅限于受限的设置,例如,热摄像机观察到操纵物体上剩下的残留热量。在本文中,我们提出了一个新颖的半监督框架,使我们能够从单眼图像中学习接触。具体而言,我们利用大规模数据集中的视觉和几何一致性约束来在半监督学习中生成伪标记,并提出一个有效的基于图形的网络来推断联系。我们的半监督学习框架对接受“有限”注释的数据培训的现有监督学习方法取得了良好的改进。值得注意的是,与常用的基于点网的方法相比,我们所提出的模型能够以不到网络参数和内存访问成本的一半以下的一半获得卓越的结果。我们显示出使用触点图的好处,该触点图规则手动相互作用以产生更准确的重建。我们进一步证明,使用伪标签的培训可以将联系地图估计扩展到域外对象,并在多个数据集中更好地概括。
translated by 谷歌翻译
我们使用氚(DPICT)算法提出了深度渐进的图像压缩,该算法是支持细粒度可扩展性(FGS)的第一学习的编解码器。首先,我们使用分析网络将图像转换为潜在的张量。然后,我们代表三元数字中的潜在张量(氚),并通过氚平面将其以减少的意义顺序编码为压缩比特流慢平面。此外,在每个氚平面内,我们根据其速率失真优先级对速度进行排序,并首先传输更重要的信息。由于压缩网络对使用更少的氚平面的情况较少优化,因此我们开发了用于以低速率精炼重建图像的后处理网络。实验结果表明,DPICT显着优于传统的渐进式编解码器,同时实现FGS传输。
translated by 谷歌翻译
考虑到不完美的预测器,我们在测试时间下利用其他功能来改善所做的预测,而不会再培训并且没有知识的预测功能。如果培训标签或数据是专有的,限制或不再可用的话,则出现这种情况,或者如果培训本身非常昂贵。我们假设额外的功能如果他们对潜在的完美预测器表现出强烈的统计依赖性,则很有用。然后,我们经验估计和加强初始嘈杂预测因子与通过歧管去噪的附加特征之间的统计依赖性。作为一个例子,我们表明这种方法导致现实世界的视觉属性排名的改进。项目网页:http://www.jamespkin.com/tupi
translated by 谷歌翻译
We present a novel method to provide efficient and highly detailed reconstructions. Inspired by wavelets, our main idea is to learn a neural field that decompose the signal both spatially and frequency-wise. We follow the recent grid-based paradigm for spatial decomposition, but unlike existing work, encourage specific frequencies to be stored in each grid via Fourier features encodings. We then apply a multi-layer perceptron with sine activations, taking these Fourier encoded features in at appropriate layers so that higher-frequency components are accumulated on top of lower-frequency components sequentially, which we sum up to form the final output. We demonstrate that our method outperforms the state of the art regarding model compactness and efficiency on multiple tasks: 2D image fitting, 3D shape reconstruction, and neural radiance fields.
translated by 谷歌翻译
神经场通过将坐标输入映射到采样值来模型信号。从视觉,图形到生物学和天文学的许多领域,它们正成为越来越重要的主链体系结构。在本文中,我们探讨了这些网络中常见的调理机制之间的差异,这是将神经场从信号的记忆转移到概括的基本要素,其中共同建模了位于歧管上的一组信号。特别是,我们对这些机制的缩放行为感兴趣,以对日益高维的调理变量感兴趣。正如我们在实验中显示的那样,高维条件是建模复杂数据分布的关键,因此,确定哪种体系结构在处理此类问题时最能实现哪种选择。为此,我们运行了使用串联,超网络和基于注意力的调理策略对2D,3D和4D信号进行建模的实验,这是文献中尚未进行的必要但费力的努力。我们发现,基于注意力的条件在各种环境中的其他方法都优于其他方法。
translated by 谷歌翻译
在过去的几年中,用于计算机视觉的深度学习技术的快速发展极大地促进了医学图像细分的性能(Mediseg)。但是,最近的梅赛格出版物通常集中于主要贡献的演示(例如,网络体系结构,培训策略和损失功能),同时不知不觉地忽略了一些边缘实施细节(也称为“技巧”),导致了潜在的问题,导致了潜在的问题。不公平的实验结果比较。在本文中,我们为不同的模型实施阶段(即,预培训模型,数据预处理,数据增强,模型实施,模型推断和结果后处理)收集了一系列Mediseg技巧,并在实验中探索了有效性这些技巧在一致的基线模型上。与仅关注分割模型的优点和限制分析的纸驱动调查相比,我们的工作提供了大量的可靠实验,并且在技术上更可操作。通过对代表性2D和3D医疗图像数据集的广泛实验结果,我们明确阐明了这些技巧的效果。此外,根据调查的技巧,我们还开源了一个强大的梅德西格存储库,其每个组件都具有插件的优势。我们认为,这项里程碑的工作不仅完成了对最先进的Mediseg方法的全面和互补的调查,而且还提供了解决未来医学图像处理挑战的实用指南,包括但不限于小型数据集学习,课程不平衡学习,多模式学习和领域适应。该代码已在以下网址发布:https://github.com/hust-linyi/mediseg
translated by 谷歌翻译
我们提出了一个新框架,用于仅使用音频信号来提取有关场景的视觉信息。基于音频的方法可以克服基于视觉的方法的某些局限失败。因此,即使对于只有视觉信息感兴趣的应用程序,我们的框架基于多种学习,并且由两个步骤组成,因此基于音频的方法也可以很有用。首先,我们训练一个矢量定量的变异自动编码器,以了解我们感兴趣的特定视觉模态的数据歧管。其次,我们训练音频转换网络以将多通道音频信号映射到相应的视觉效果的潜在表示样本。我们证明我们的方法能够使用公开可用的音频/视觉数据集从音频中产生有意义的图像。特别是,我们考虑了来自音频的以下视觉方式的预测:深度和语义分割。我们希望我们的工作发现可以促进从音频中进行视觉信息提取的进一步研究。代码可在以下网址获得:https://github.com/ubc-vision/audio_manifold。
translated by 谷歌翻译